阿里视觉AI的开放平台之路

Original 星瞳阿里技术 2023-01-20

收录于合集 #AI应用与探索 12个

AI开放平台，探索让技术能力赋能更多行业，同时反推技术前行，推动AI的可持续发展。本文以阿里云视觉智能开放平台为例，讲述AI平台的定位、架构、实现、运营及进化。

阿里视觉AI简介

视觉技术作为AI技术的主要组成部分，在大量业务场景（电商零售、金融物流、文娱营销、企业服务等多个行业）贡献了各类技术创新与应用实践。同时，达摩院作为阿里集团先进技术的集中探索研发基地，沉淀了很多优秀的视觉算法能力，分布在如下各个场景和环节当中：

这些产品技术，几乎覆盖了视觉技术的方方面面：

如何寻找一个合适的方式，来释放这内在汇聚的能力和能量，赋能百行千业，同时反推技术前行，由内而外，由Close走向Open，不管是从技术发展角度，还是从社会价值角度，都有很大价值。本文主要基于近年的探索实践，来阐述阿里视觉AI的开放及平台之路。

视觉AI的平台化

当前AI技术进展很大，但离社会预期，满足现实需求，有很大的距离。这个矛盾可以抽象一下，即：客户多样化的AI需求与有限的AI能力供给之间的矛盾。需求是无限的，以有限的资源去支持自然不可能，再加上AI能力的特殊性（有一定研发和运行门槛、效果有一定不确定性），即便是汇聚了阿里所有的AI能力和力量，也只能提供部分核心能力和典型案例。供需GAP，通过提供工具服务去缩短这个差距是一个路径，如下图。

所以，如果真的有一个相对通用的AI平台(公有、专有AI能力各有适合发挥的场所，这里先行探讨基于公有云的AI开放平台)那么它的核心价值无外乎两点：提供核心AI能力和典型案例；缩短供给与需求GAP的工具。

来看如何建设AI“供给”和“需求”最短路径：

有的用：提供满足视觉基本面的多样、标准化的能力，完善的能力供应链和匹配体系，一站式、最大程度满足用户的主流AI需求；

易用：提供全生命周期的能力体验和使用流程，稳定高效的平台基础设施支撑，实现快速接入、低门槛、稳定的使用；

用得起：通过单能力极致优化，多能力系统优化，降低平台成本；通过定额免费满足中小AI需求，获得低成本的使用能力，实现较高ROI；

好用：提供实用专业的能力，AI从行业中来，提炼沉淀，并通过系统化的方式反哺行业。

一个成功的可持续的平台，对所有参与者都应该能找到其所需要的。平台体系一般有三个重要干系人，需求方（AI开发者或高校师生）、供给方（算法能力提供者，如达摩院算法工程师）及平台本身，平台需要同时考虑供需的需求和价值体现。AI需求、场景的多样化，和方法、数据、资源的有限之间的矛盾，可以基于部分核心AI能力，通过市场化机制、系统化的手段，更高效地减轻。

这里有两个核心点：部分已有的AI能力，冷/初始启动，解决可标准化、有一定通用性的问题；系统化的机制，形成快速适应、规模效应、反馈闭环、多维度的在线进化体系。

阿里视觉智能开放平台

作为阿里巴巴视觉技术小组发起的，阿里云视觉智能开放平台（vision.aliyun.com），正是在上述思考下的研发并上线的产品，其上线以来，一步一个脚印，已迭代三个大版本：

借阿里视觉小组力量团结了多达数十个团队支持，整合或引入了阿里云上多个产品的能力，也支持了集团内外多个业务方。

视觉开放平台自一上线起，就确认了自己的愿景：让天下没有难用的视觉AI，这也是平台发展的出发点和准绳，从中形成了“全面、专业、好用、易用”等平台特点：

从构架上说，视觉开放平台是一个多层次多维度的体系，基本可分为三层，基础层、能力层、应用层，还有一些用户和运营工具。作为一个平台，每一层都需要非常大的研发和尽力投入，要有大且持续的资源投入，面对层出不穷的困难的心气，耐得住寂寞的心态。

为了更好地理解，可以用另一个更简洁的方式来描述：

这里将平台三层分别介绍一下：

1.基础平台

首先，视觉AI开放平台是一个平台，作为基于云的AI产品，资源管理（以GPU为主）、推理平台、稳定性保障、监控跟踪、成本效率提升，这些一个都逃不掉。这些服务于平台第一要性（在线AI能力上线及运行）。最重要的可以抽象成AI能力的（非研发生产）全链路的生命周期管理，包括：规划-->选品-->评测-->上新-->运行-->监控-->更新-->下线等。

其中需要强调的是评测这一块，算法质量的保证（上与不上）需要有一个标准可衡量的评测机制，这也是将AI算法不确定性变为确定的一个方法，包括横向同类能力PK，纵向与已有能力PK，并得到一个规范的评测报告。

此外满足第二特性（缩短供求的在线效率工具）主要依赖于"能力再生产"模块，这里稍微展开一下，除了拿来即用的（能力或案例模板），需要进行二次或多次开发的能力，都归于再生产或再开发，一般有三种模式：

组合编排：这是对原子能力的重新组合，变成能力簇，可称为分子能力，这类可以是代码开发，也可以是所谓“低代码”图形的方式组合。组合可以是简单的串并联，也可以是稍微复杂的DAG图，甚至是多层次嵌套的类似G语言的全套图形开发方式（如LabView）；
对已有原子能力（一般表现为预训练模型）的再生产：这里指用户通过平台工具在线进行（离线的或脱离开放平台的不在讨论范围内），包括：模型结构、参数权重调整、量化加速、大模型到小模型、少样本tune/不同域数据场景的迁移等；
AI能力的在线迭代进化，这在互联网经典能力“搜推广”中得到广泛应用，在AI平台中还未有成熟的模式，在线学习、增量学习等，这些互联网算法进化模式，在解决数据安全、隐私等问题后，相信迟早在视觉AI领域也会得到应用的。

Q：和PAI有什么关系？

A：PAI可以理解成一系列基础设施和工具，我们基于开放平台的产品定位，引入PAI的能力来进行视觉AI能力的再生产实现。一句话，PAI是我们的基础和工具。

2.能力中心

视觉开放平台首先是一个能力中心，目前汇聚了集团大部分的视觉AI能力（达摩院能力为主），共计15大类200+个，如下：

回到前面视觉技术的分类体系，我们会发现这里基本都有一一对应的类目，也从另外一个角度反映了开放平台确实是阿里视觉领域第一个真正意义上全类目覆盖的平台。能力虽多，但基本上可以组织成三大类，基本面能力、优势能力、行业应用类能力。

基本面能力：包括人脸人体、OCR、检测、打标等，这些AI能力应用广泛，平台必须要有，在性能上至少不能成为明显的短板，不然就是一个小众的AI平台；
优势能力：基于阿里自有场景锤炼的、具有一定技术优势、差异化的AI能力，以此建立平台能力竞争力，如分割、关键点、超分、商品识别等，这些优势能力本身也可能是基本面能力；
行业应用能力：平台首先提供的是一些相对通用的AI能力，更多是泛互联网领域的。但另外一些场景需要的（如海外场景、增强修图、人身检验等），或者行业属性重的能力（如医疗、教育等），也是非常有价值的。这也体现了本平台的通用性和开放性。

这些能力的选择（选品）本身也需要有一个策略，这里Voronoi量化腔又可以派上用场了，在无限的模拟空间选择合理的可量化的代表点，这个选择可以从需求大小、自有能力优势等多维度去衡量，也需要考虑适合公共云的特性，以及考虑能力再生产的价值（比如某些能力可以采用大模型/预训练模型，以方便后续小模型生产）。

3.场景应用

从平台定位看，平台需要提供一些典型的AI解决方案。从发展阶段看，平台在面临冷启动的阶段，没有规模化的用户的时候，可以把研发团队自己作为一个特殊的客户，自己先吃狗粮，看自己能否基于平台构建一些典型案例，如老片修复、人身核验、云修图等。开放平台本身是PaaS（AIaaS）层的，基于此可以构建SaaS层的应用示例，让用户参考，或者拿来复制改造。

这里举几个例子，来验证基于平台快速构建应用的案例：

1）口罩佩戴监测

这个案例来自于2020年新冠爆发期间，由于需求迫切，希望能够快速实施上线，对未佩戴口罩人员的实时提醒，以及管理人员现场管理辅助，疫情防控指挥中心也能及时掌握各公共场所口罩佩戴预防措施的落实情况，提高管理决策精准度。

解决思路是，结合开放平台提供的人脸识别、人脸口罩识别，以及钉钉小程序提醒、天猫精灵语音播报技术，打造口罩佩戴检测及统计预警系统。当时在一个月紧密开发后，达到实际部署要求，安装难度低，普通部署监控的工人即可操作，物业自有人员也可以部署；部署周期短，普通安装监控的工人，大约1小时部署一台设备。

2）视频广告植入

视频植入就是在视频中加入一些本来没有的内容，而且与上下文融为一体，用户感觉“它”本身就应该在那，最广泛的应用就是广告植入。视频植入是一项非常复杂的技术，需要考虑到方方面面，比如广告位检测、广告位跟踪等等，有时会遇到遮挡、移出屏幕等复杂情况跟踪，而且在视频植入之后还要考虑广告是否能够跟视频细节匹配、光影渲染等问题。

解决思路：基于开放平台提供的精确分割，结合广告位检测、识别跟踪、视频分割、植入及渲染能力，打造全自动的视频广告检测与植入系统，可以实现批量化投放，结合场景化的广告植入，最大化内容价值。

3） 视觉内容设计生成

早期在研发视觉设计生成产品（鹿班和AlibabaWood）时，积累沉淀了一系列视觉理解和生产相关的能力，这些能力也成为开放平台上“种子”能力。经过一系列的改造，这两个SaaS产品也用到了开放平台的基础设施和AI原子能力，使之更专注于业务能力本身。

进化：从OpenAPI到OpenSDK，

从公共云到端云协同

公共云是开放平台的起点，也是主阵地。最早的形态也是API服务，我们称之为OpenAPI。与自有能力无法满足所有的需求，需要再生产工具配合一样，公共云的交付形态也不能满足所有算力场景，在实时交互、数据安全要求高等场景，端云结合是趋势，AI平台也一样，我们称之为OpenSDK。

从产品形态而言，云和端只是开放平台不同的部署和运行形态，需要有统一的产品体验和环境，包括：

业务逻辑：从需求获取、研发上线、业务交流、商务流程、管控升级、场景模拟以及交付等，都在公有云统一平台进行，有一样的用户和体验。
技术逻辑：端侧效果、算力优化、运行时框架、权限和安全等，以及依赖不同软硬件环境的一系列抽象封装，都有端侧的特性。

研发OpenSDK是一个循序渐进的过程，尤其是相应的资源极度缺少的情况下，我们总结了一个递进的逻辑（基于阿里集团MNN等底层框架的支持）：

AI基础能力（如分割、检测、人脸、关键点等）--> 需要2D渲染及素材工具支持的能力（如美颜美妆、贴纸）-->需要3D渲染支持的能力（虚拟人、AR/VR等）。

在大半年的研发后，OpenSDK有了一定的雏形，这里举几个基于OpenSDK例子：

端上增强，找到更广泛的增强应用场景

AI在体育健身领域的价值

进化：AI普惠+机会之地到OpenSOTA

AI平台作为平台的一种，符合通用平台的进化的规律，也有自己的AI特色：

阿里的AI开放平台，希望在社会价值（基础、硬核、普惠等）上贡献自己的力量，从“Let more people use better AI”出发，为需求和供给方都带来实实在在的效率和效果变化。此外，AI作为一个新兴学科，在学术界也是热闹非凡，各种“SOTA”方法层出不穷，但这些方法，复现难、使用难，再加上质量良莠不齐，离社会大众真正使用有一个巨大的GAP，基于此，开放视觉团队一直有一个想法，将来打造一个“拿来即用”的OpenSOTA机制：

OpenSOTA承载了“使平台成为业界/学术界SOTA-AI汇聚和使用之地”这一目标；
汇聚SOTA，重现SOTA，使用SOTA；有更全、更新SOTA能力，更重要的是能够可复现、在线运行、集成使用。

现实和未来

理想丰满而现实骨感，对AI平台这类短期看不到大的收益的产品，加上它天生就是一个需要大协同的项目，怎么在受约束的环境中，怎么做到较优，一直是我们需要思考的问题。除了愿景支持，需要务实的两条腿的走法，即有明确的长期规划，也要当前有节奏性的产出。如同AI能力本身，有持续不断进化的能力，才是最具想象空间和前景的。

最后，也畅想一下视觉AI开放平台终局是什么：

影响力：业内领先AI开放平台和品牌， AI开发和使用模式的引领者；
价值体现：服务百万开发者，百亿调用，千级能力，秒级接入；
AI能力：业界/学术界SOTA-AI汇聚和使用之地，原创AI算法的孵化之地；
案例应用：AI优秀案例的分享和体验之地，规模化AI应用的实践之地；
用户生态：中长尾AI用户普惠之地和机遇之地。

希望视觉AI开放平台，真正成为阿里AI的入口和阵地，带来业务和社会的双重价值，树立行业AI地位，繁荣AI生态。

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

著名口述史学者Portelli的一部被忽视的口述史作品 | 一个工业小镇的传记：意大利特尔尼（1831-2014）

阿里视觉AI的开放平台之路

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

著名口述史学者Portelli的一部被忽视的口述史作品 | 一个工业小镇的传记：意大利特尔尼（1831-2014）

生成图片，分享到微信朋友圈

阿里视觉AI的开放平台之路

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡